PDF Extractor SDK עבור מפתחי Windows מפתחים: PDF לטקסט, PDF ל- XML, תמונות מ- PDF, לקרוא PDF מידע, PDF ל CSV עבור.
Bytescout PDF Extractor SDK מאפשר להמיר PDF לטקסט, PDF ל- XML, PDF ל- CSV, לחלץ תמונות מ- PDF, לחלץ מידע על קבצי PDF בממשקי NET ו- ActiveX ללא כל תוכנה נוספת הנדרשת.
יתרונות:
ממיר PDF לטקסט רגיל (והוא יכול לעקוב אחר עמודות אם אתה המרת עיתון בפורמט PDF) - כולל מיצוי טקסט בלתי נראה;
ממיר טבלאות ב- PDF ל- Excel (CSV) על ידי קריאת תאים ממלבן נתון;
ממיר טבלאות ב- PDF לקובצי XML;
מחלץ קובץ PDF metadata (כותרת, מחבר, תיאור) ולקבל מידע נוסף על הקובץ (מספר עמודים, מוצפן או לא);
תמציות תמונות מוטבע ממסמך PDF (ב- ASP.NET, VB.NET, C #, VB6 ו- VBScript);
DocumentMerger ו DocumentSplitter ממשקים ושיעורים למזג ולפצל מסמכי PDF;
אינו דורש Adobe Reader או כל תוכנת PDF אחרת להתקנה;
מספק ממשקי NET ו- ActiveX;
עשה עם 100% מנוהל C # קוד.
מה חדש במהדורה זו:
גרסה 9.0.0.3079: נוסף סינון של תוכן שחולץ לפי שם גופן, גודל גופן וצבע.
OCR מעודכן לגרסה העדכנית ביותר. עדכון קבצי שפה מתיקייה 'tessdata'.
מיצוי טקסט משופר, קווי קיבוץ בנתונים טבלאיים, ביצועים, מיצוי XFA, TableDetector, בעיות קבועות של ניתוח PDF.
מה חדש בגירסה 8.7.0.2980:
נוסף סינון של תוכן שחולץ לפי שם גופן, גודל גופן וצבע.
OCR מעודכן לגרסה העדכנית ביותר. עדכון קבצי שפה מתיקייה 'tessdata'.
מיצוי טקסט משופר, קווים מקובצים בנתונים טבלאיים, ביצועים, מיצוי XFA, TableDetector, בעיות קבועות של ניתוח PDF.
מה חדש בגירסה 8.6.0.2911:
נוסף סינון של תוכן שחולץ לפי שם גופן, גודל גופן וצבע.
OCR מעודכן לגרסה העדכנית ביותר. עדכון קבצי שפה מתיקייה 'tessdata'.
טקסט משופר מיצוי, קווי קיבוץ נתונים טבלאי, ביצועים, XFA טפסים החילוץ, TableDetector, קבוע בעיות ניתוח PDF.
מה חדש בגירסה 8.2.0.2699:
מה חדש בגירסה 8.0.0.2528:
מה חדש בגירסה 7.0.0.2474:
גרסה 7.0.0.2474:
- נוסף בכיתה השירות DocumentPrinter המאפשר להדפיס מסמכי PDF בשקט (ללא דיאלוגים המשתמש)
- נוסף מחלקה חדשה של JSONExtractor
- דרוס נוסף עבור DocumentSplitter.Split () שיטה המאפשרת לציין את תיקיית הפלט עבור קבצים שנוצרו
- תיקון שגיאות מרובות-שגיאות ב- DocumentSplitter
- tableDetector מכבד כעת את אזור החילוץ שנקבע על ידי השיטה SetExtractionArea ()
- מאפיינים חדשים במחלקות מיצוי: ExtractionColumns - מכיל קואורדינטות של עמודות שזוהו; CustomExtractionColumns - מאפשר לעקוף את זיהוי העמודה
- שיטות GetPageRect * לא לקחו בחשבון את סיבוב הדף.
תוקן באג במתקין גורם כמה קבצים מההתקנה הקודמת היו מפריעים עדכונים - עיבד את בדיקת הרישום. עכשיו הספרייה לא לזרוק חריגה, אבל לעבוד במצב הדגמה אם החמצת או קלט שגוי RegistrationName ו RegistrationKey
- רב-תכליתי של PDF: נוספה רשימת המסמכים האחרונים ללחצן "פתח מסמך PDF"
- PDF Multitool: ניתן לשנות את גודל הגודל כעת
- PDF רב-תכליתי: נוסף תכונת JSON לחלץ
- ממשק רב-לשוני של PDF: ממשק משתמש משופר לגילוי טבלה
- PDF multitool: איכות עיבוד הגופן השתפרה מאוד
- רב-תכליתי PDF: נוספה אפשרות איתור הבאגים "הצג עמודות הפקה שזוהו" לתפריט ההקשר להצגת העמודות שזוהו בדף הנוכחי. הופך לגלוי רק לאחר הפעלת כל מיצוי כנגד הדף המוצג הנוכחי
- PDF רב-בעיות: בעיית טיוח גופן קבועה ב- Windows 32 סיביות
- שיפורים קלים ותיקוני באגים נוספים
מה חדש בגירסה 6.30.0.2421:
גירסה 6.30.0.2421:
- הוספת ערכת כלי השירות TextComparer (זמינה במכלולי .NET 4.0 בלבד) המאפשרת להשוות טקסט בשני מסמכי PDF וליצור דוח.
- תמיכה משופרת בפרופילי צבע של ICC.
- טיפול מוטבע בגופנים מוטמעים.
- קובץ מצורף משופר.
- שיטה קבועה של XMLExtractor.SaveXMLToStream ().
- שכפול קבוע של טקסט שחולץ בעת שימוש באפשרות OCRCacheMode.WholePage.
- תיקוני באגים ושיפורים אחרים.
מה חדש בגירסה 6.20.2354:
גרסה 6.20.2354:
- PDF לטקסט, PDF ל- CSV, פונקציות PDF ל- XML השתפרו
- חלץ וידאו חדש, חלץ דוגמאות אודיו
- מחיצות CSV ו- XML שיפרו את התמיכה בטבלאות עם עמודות ריקות בתוך
- MultimediaExtractor חדש לחלץ וידאו ושמע מ- PDF
- נכס חדש PageDataCaching
- דוגמה חדשה "MemoryCareProcessingOfHugeFiles"
- חריג null קבוע בעת ניסיון להשליך דפים שכבר נמחקו
- XLSExtractor: משפר את התמיכה בגופנים
- דלג כעת על SkipInvisibleText (שאינו גלוי)
- טיוח הפלט של הטקסט השתפר
- XFDF Extractor: תמיכה נוספת עבור תיבות הסימון
- פלט התמונות שופץ כדי לתמוך בתת-פורמטים נוספים
- טיפול בטקסט של Unicode השתפר
מה חדש בגירסה 6.11.2149:
גרסה 6.11.2149:
- עיבוד אצווה דגימות מעודכנות כדי להראות את השימוש בשיטת Reset ()
- + + קוד המקור של C + נוסף עבור הפקת דפים
- DocumentMerger מוסיף מיזוג 2 (inputfile1, inputfile2, outputfile) כדי למזג 2 קבצים
- XLS Extractor תיקוני באגים קטנים
- PDF Multitool מאפשר כעת לאפשר / להשבית טקסט, תמונה, שכבות וקטוריות, מוסיף הגדרות מתקדמות להפקת טקסט
- XML, CSV, מיצוי טבלאות משפר תמיכה בטבלאות עם תאי emtpry בתוך עמודות
- .ExtractShadowLikeText השתפר: סינון טוב יותר עבור טקסט דמוי צל
מה חדש בגירסה 6.10.2136:
גרסה 6.10.2136:
- PDF ל- XML, PDF ל- CSV, פונקציונליות PDF לטקסט השתפרה
- PDF לקו XLS של שורת פקודה שנוספה (מבוסס על vbscript)
- PDF ל- HTML SDK מוסיף מאפיין חדש .DetectHyperLinks (TRUE כברירת מחדל) כדי לאפשר / להשבית איתור קישורים אוטומטיים בטקסט
- SearchablePDFMaker חדש (זמין עבור רשיונות PRO) כדי להמיר PDF לקובצי PDF הניתנים לחיפוש
- מאפיינים חדשים ב- Extractor: ThinkPontNames, ThinkPontSizes, ThinkPontColors, ThinkVerticalBorders בקבצי CFG
- זיהוי עמודות (כאשר AutoAlighHeaderToColumns = true) משופרים
- .DetectLinesInsteadOf פסקאות שהוחלפו ב- LINEGroupingMode חדש. כדי לקבוע כיצד קווי ממוזגים לפסקאות
- חשוב! PDF לתיקוני XML בעיה זמן רב עם קואורדינטות Y לא נכונה עבור אובייקטים טקסט (היה הצבע על השמאלית התחתונה במקום למעלה משמאל)
- .TableXMinInectionRequiredInPercents ו- TableYMinIntersectionRequiredInPercents נוספו מאפיינים
- + + קוד המקור של C + נוסף
- XML Extractor פותר עמודות ריקות חסרות במצב PreserveFormatting = true
- תיקונים קלים בצבעים בקובצי PDF מסוימים
- עבור שפות OCR מרובות שנוספו
- ממשק גרפי רב-תכליתי של PDF: מוסיף עותק ללוח 'הלוח' לתיבות דו-שיח של TXT, CSV, XML ו- Raster
- XLSExtractor: מוסיף מאפיין PageToWorksheet להפעלה / השבתה של גיליונות עבודה נפרדים לדף
- מאפיין חדש .TextEncodingCodePage
- PDFViewerControl: מוסיף למשתמש ValidateContextMenu המאפשר להוסיף פריטים מותאמים אישית לתפריט ההקשר
- פקד מציג ה- PDF: מוסיף מאפיינים ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor מוסיף כעת תכונה "OCRConfidence" עבור טקסט מוכר
- פונקציונליות בדיקה של PDF / A (בגרסת ביטא)
- שיפור פקדים ובדיקת טקסט ויישור בהתאם לפריסה המקורית. הבעיה נגרמה על ידי מעבר של קואורדינטות Y בקרות בזמן ניתוח: זה היה שגוי. הדרך הנכונה היא shif ...
- XML Extractor עודכן: כעת מייצר תג בקרה עבור תיבות סימון ושדות טקסט
- השתנה באמצעות הספרייה הנוכחית לספריית זמני
- תיבות סימון, רדיובוקסים, תיבות עריכה, קומפבוקסים נתמכים טוב יותר
- מאפשר כעת למתקשרים נאמנים חלקיים
מה חדש בגירסה 5.80.1781:
גרסה 5.80.1781:
- PDF ל- XML, PDF ל- CSV, פונקציונליות PDF לטקסט עודכנה
- OCRMode מספק כעת 9 מצבים
- .DetectLineInsteadOfParagraph עובד כעת הרבה יותר טוב. הגדר אותו False כדי ללכוד טקסט multiline בתאי השולחן!
- שיפור התמיכה בבקרת PDF
- מיצוי נתוני FDF ו- XFDF
מה חדש בגירסה 5.10.1747:
גרסה 5.10.1747:
- PDF ל- XML, PDF ל- CSV, PDF לטקסט פונקציות משופרות
- תומך כעת בהפקת טקסט מבקרי טקסט
- מחליף XML מוסיף כעת סגנון גופן, גודל, שם, קואורדינטות טקסט לתגים
- הוספת ASP.NET לדוגמה לשימוש ב- OCR
- נכס חדש OCRLanguageDataFolder כדי לציין את המיקום של תיקיית "tessdata"
- תמיכה משופרת בקובצי PDF
- משפר את התמיכה בטקסט מסובב
- דוגמאות מקור מקור מעודכנות
- תיעוד מעודכן
- שיפורים ותיקונים קטנים
מה חדש בגירסה 5.00.1626:
גרסה 5.00.1626:
- פונקציונליות OCR (טקסט מתמונות) נוספה: כעת באפשרותך לחלץ טקסט מתמונות מוטבעות ולתקן טקסט פגום
- בעיה עם CSV ו- Extractor XML חסרים עמודות אחרונות עם הגדרות מסוימות
- תמיכה משופרת בקובצי PDF פגומים
- חיפוש טקסט רב-שכבתי עם מצבי התאמת מילים נתמך כעת
- יכול כעת לחפש טקסט עם מקפים ובקווים שונים: ראה דוגמת קוד מקור חדשה מצא טקסט עם Hyphens
- מאפיין חדש .RTLTextAutoDetectionEnabled (כוזב כברירת מחדל) לזיהוי אוטומטי של שפות RTL
- הדגמה הגרפית של GUI של PDF Viewer השתפרה
- שיפורים ותיקונים קטנים
דרישות :
.NET Framework 2.0 ומעלה
מגבלות חזקה>:
נאג מסך, סימן מים על פלט
תגובות לא נמצא